A Batalha de Atualizações de IA do Projeto Astra, Veo e Gemini do Google
Esta é a resposta do Google ao OpenAI.
Uma IA geral, uma IA que pode ser realmente usada diariamente, seria embaraçoso realizar uma coletiva de imprensa se não for assim agora.
Na madrugada de 15 de maio, começou oficialmente a “Gala do Festival de Primavera do Mundo da Tecnologia” na Conferência de Desenvolvedores Google I/O. Quantas vezes a inteligência artificial foi mencionada na apresentação principal de 110 minutos? O Google contabilizou:
Sim, a IA está sendo discutida a cada minuto.
A competição da IA generativa atingiu recentemente um novo clímax, e o conteúdo desta conferência I/O naturalmente gira em torno da inteligência artificial.
“Um ano atrás, neste palco, compartilhamos pela primeira vez nossos planos para o modelo grande multimodal nativo, Gemini. Isso marcou a nova geração do I/O,” disse o CEO do Google, Sundar Pichai. “Hoje, esperamos que todos possam se beneficiar da tecnologia do Gemini. Esses recursos inovadores penetrarão na busca, imagens, ferramentas de produtividade, sistemas Android e muitos outros aspectos.”
Atualmente, tanto 1.5 Pro quanto 1.5 Flash estão disponíveis para visualização pública e oferecem uma janela de contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Agora, o 1.5 Pro também fornece uma janela de contexto de 2 milhões de tokens para desenvolvedores que usam a API e clientes do Google Cloud via uma lista de espera.
Além disso, o Gemini Nano foi expandido de entrada puramente textual para entrada de imagem. No final deste ano, começando com o Pixel, o Google lançará o Gemini Nano multimodal. Isso significa que os usuários móveis podem não apenas processar entradas de texto, mas também entender mais informações contextuais, como visuais, sons e linguagem falada.
A família Gemini dá as boas-vindas a um novo membro: Gemini 1.5 Flash
O novo 1.5 Flash foi otimizado para velocidade e eficiência.
Nova Geração do Modelo Grande de Código Aberto Gemma 2
Hoje, o Google também lançou uma série de atualizações para o modelo grande de código aberto Gemma – o Gemma 2 está aqui.
Como foi apresentado, o Gemma 2 utiliza uma nova arquitetura visando alcançar um desempenho e eficiência inovadores, os novos parâmetros do modelo de código aberto são 27B.
Quando se trata de vídeos longos, o Veo pode produzir vídeos de 60 segundos ou até mais. Ele pode fazer isso por meio de um único prompt ou fornecendo uma série de prompts que juntos contam uma história. Isso é fundamental para a aplicação de modelos de geração de vídeo na produção de cinema e televisão.
O Veo é baseado no trabalho do Google em geração de conteúdo visual, incluindo Rede de Consulta Generativa (GQN), DVD-GAN, Imagem-para-Vídeo, Phenaki, WALT, VideoPoet, Lumiere e outros.